传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
主要关键词